草庐IT

Python KMeans 聚类单词

全部标签

python - 聚类结构 3D 数据

假设我有许多对象(类似于蛋白质,但不完全相同),每个对象都由一个包含n个3D坐标的向量表示。这些物体中的每一个都指向空间中的某个地方。可以通过使用KabschAlgorithm对齐它们来计算它们的相似性。并计算对齐坐标的均方根偏差。我的问题是,以提取人口最多的集群(即大多数结构所属的集群)的方式对大量这些结构进行聚类的推荐方法是什么。另外,有没有办法在python中执行此操作。举例来说,这是一组简单的非聚类结构(每个结构都由四个顶点的坐标表示):然后是所需的聚类(使用两个聚类):我已经尝试将所有结构与引用结构(即第一个结构)对齐,然后使用Pycluster.kcluster对引用和对齐

python - 如何标记没有空格分隔符的连续单词?

我将Python与nltk结合使用。我需要处理一些没有空格的英文文本,但是nltk中的word_tokenize函数无法处理这样的问题。那么如何在没有任何空格的情况下标记文本。Python有什么工具吗? 最佳答案 我不知道有这样的工具,但你的问题的解决方案取决于语言。对于土耳其语,您可以逐个字母扫描输入文本并将字母累积成一个词。当您确定累积的单词形成字典中的有效单词时,您将其保存为单独的标记,删除用于累积新单词的缓冲区并继续该过程。您可以针对英语尝试这样做,但我假设您可能会发现某个单词的结尾可能是某个字典单词的开头,这会给您带来一些

python - 计算单词中的音节数

我是初学者,我有一个问题需要帮助。这是家庭作业,因此不胜感激任何提示。我已经看到了一些类似的主题,但答案超出了我所知道的范围......作为大型程序的一部分,我需要计算文本文件中的音节数。除了音节,我已经得到了我需要的一切。我尝试了几种不同的方法,但并不总能捕捉到特殊情况。我应该“计算相邻元音组的数量,不包括单词末尾的‘e’。”我明白这意味着什么,但我无法在我的程序中正确使用它。这是我的:::defsyllables(word):syl=0vowels='aeiouy'starts=['ou','ei','ae','ea','eu','oi']endings=['es','ed','e

python - 什么时候应该在 Python 函数名称中的单词之间使用下划线(根据样式指南)?

styleguide说应该使用下划线,但许多Python内置函数不使用。下划线的标准应该是什么?我想与Python风格指南保持一致,但这方面似乎有点模糊。是否有好的经验法则,是基于我自己的判断,还是这两种方式都无关紧要?例如,我应该将我的函数命名为isfoo()以匹配旧函数,还是应该将其命名为is_foo()以匹配样式指南? 最佳答案 风格指南将此留给您:Functionnamesshouldbelowercase,withwordsseparatedbyunderscoresasnecessarytoimprovereadabil

python - 用 python 解决困惑的单词拼图?

我有一个有趣的编程难题给你:你会得到两样东西:包含一系列英语单词的单词,例如:word="iamtiredareyou"可能的子集:subsets=['i','a','am','amt','m','t','ti','tire','tired','i','ire','r','re','red','redare','e','d','da','dar','dare','a','ar','are','r','re','e','ey','y','yo','you','o','u']挑战:Level-1:我需要务实地找到子集中的成员,这些成员按顺序组合在一起将构成"iamtiredareyou"即

python - 在字符串中查找字符/单词的周围句子

我正在尝试使用python从包含给定子字符串的字符串中获取句子。我可以访问字符串(学术摘要)和带有开始和结束索引的亮点列表。例如:{abstract:"...longabstracthere..."highlights:[{concept:'aword',start:1,end:10}{concept:'cancer',start:123,end:135}]}我遍历每个突出显示,在摘要中找到它的起始索引(结束并不重要,因为我只需要在句子中找到一个位置),然后以某种方式需要识别索引出现在的句子.我能够使用nltk.tonenize.sent_tokenize将摘要标记化为句子,但这样做会

python - 使用用户指定的全局聚类系数高效生成随机图

我正在研究大规模神经元网络的模拟,为此我需要生成代表网络拓扑的随机图。我希望能够指定这些图的以下属性:节点数,N(~=1000-10000)任意两个给定节点之间连接的平均概率,p(~0.01-0.2)全局聚类系数,C(~0.1-0.5)理想情况下,应从满足这些用户指定标准的所有可能图的集合中统一绘制随机图。目前,我使用的是一种非常粗略的随机扩散方法,我从具有所需大小和全局连接概率的Erdos-Renyi随机网络开始,然后在每一步中随机重新连接部分边。如果重新布线让我更接近所需的C,那么我会将重新布线的网络保留到下一次迭代中。这是我当前的Python实现:importigraphimpo

Python正则表达式来替换除特定单词之外的所有内容

我正在尝试使用正则表达式执行以下操作:importrex=re.compile('[^(going)|^(you)]')#wordstoreplaces='Iamgoinghomenow,thankyou.'#stringtomodifyprintre.sub(x,'_',s)我得到的结果是:'_____going__o___no______n__you_'我想要的结果是:'_____going_________________you_'由于^只能在方括号[]内使用,所以这个结果是有道理的,但我不确定还有什么办法可以解决。我什至尝试过'([^g][^o][^i][^n][^g])|([

python - 用于产品数据分析的最佳 Python 聚类库

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。关闭4年前。Improvethisquestion我收集了各种产品的字母数字产品代码。类似产品的代码没有内在相似性,即产品代码“A123”可能表示“HarryPotterVolume1DVD”,而“B123”可能表示“KellogsCornFlakes”。我实际上也没有产品的描述或标识。我所拥有的只是这段代码的“所有者”。因此,我的数据(以非正常方式)看起来像这样:所有者1:产品代码A123、B124、W555、M2